DATOS CDA LA CEJA

Preprocesamiento de datos:

EDA

Atípicos, covarianza, n° condición, determinante:

Centralizar datos

Indentificación de atípicos a través de distancias de Mahalanobis:

Análisis PCA:

Modelos de clasificación:

K - NEAREST NEIGHBORS:

ÁRBOL DE DECISIÓN:

Debemos reducir la complejidad del modelo para intentar ganar en generalización. También debemos tener en cuenta que si reducimos demasiado la complejidad, podemos crear un modelo demasiado simple que en vez de estar sobreajustado puede tener un desempeño muy por debajo del que podría tener; podríamos decir que el modelo estaría infraajustado y tendría un alto nivel de sesgo. Para ayudarnos a encontrar el término medio entre la complejidad del modelo y su ajuste a los datos, podemos ayudarnos de herramientas gráficas. Por ejemplo podríamos crear diferentes modelos, con distintos grados de complejidad y luego graficar la precisión en función de la complejidad.

El gráfico que acabamos de construir muestra la precisión del modelo en función de su complejidad. Podemos observar que el punto con mayor precisión, en los datos de evaluación, lo obtenemos con un nivel de profundidad menor a 10.

Otra herramienta analítica que nos ayuda a entender como reducimos el Sobreajuste con la ayuda de más datos, son las curvas de aprendizaje, las cuales grafican la precisión en función del tamaño de los datos de entrenamiento.

En este gráfico podemos ver claramente como con pocos datos, la precisión entre los datos de entrenamiento y los de evaluación son muy distintas y luego a medida que la cantidad de datos va aumentando, el modelo puede generalizar mucho mejor y las precisiones se comienzan a emparejar.

MÁQUINA DE SOPORTE VECTORIAL:

RED NEURONAL:

REGRESIÓN LINEAL MÚLTIPLE:

Resultados:

image.png

Pruebas:

image.png